我们研究单调夹杂物和单调变异不平等,及其对非单调环境的概括。我们首先表明,最初由Yoon和Ryu [2021]提出的额外的锚固梯度(EAG)算法用于无约束的凸孔conconcove min-max优化,可用于解决Lipschitz单调包含的更普遍的问题。更具体地说,我们证明了EAG解决了$ o(\ frac {1} {t})$的\ emph {Accelerated收敛速率}的Lipschitz单调包含问题,这是\ emph {所有一阶方法}的最佳{ [Diakonikolas,2020年,Yoon和Ryu,2021年]。我们的第二个结果是一种新算法,称为额外的锚固梯度加(EAG+),它不仅可以实现所有单调包含问题的加速$ O(\ frac {1} {t} {t} {t} {t})$收敛率,而且还表现出同样的加速度涉及负共酮操作员的一般(非单调)包容性问题的率。作为我们第二个结果的特殊情况,EAG+享受$ O(\ frac {1} {t})$收敛率,用于求解非平凡的非Conconvex-Nonconcave-Nonconcave Min-Max优化问题。我们的分析基于简单的潜在函数参数,这对于分析其他加速算法可能很有用。
translated by 谷歌翻译
Entrainment is the phenomenon by which an interlocutor adapts their speaking style to align with their partner in conversations. It has been found in different dimensions as acoustic, prosodic, lexical or syntactic. In this work, we explore and utilize the entrainment phenomenon to improve spoken dialogue systems for voice assistants. We first examine the existence of the entrainment phenomenon in human-to-human dialogues in respect to acoustic feature and then extend the analysis to emotion features. The analysis results show strong evidence of entrainment in terms of both acoustic and emotion features. Based on this findings, we implement two entrainment policies and assess if the integration of entrainment principle into a Text-to-Speech (TTS) system improves the synthesis performance and the user experience. It is found that the integration of the entrainment principle into a TTS system brings performance improvement when considering acoustic features, while no obvious improvement is observed when considering emotion features.
translated by 谷歌翻译
与LTE网络相比,5G的愿景在于提供较高的数据速率,低延迟(为了实现近实时应用程序),大大增加了基站容量以及用户的接近完美服务质量(QoS)。为了提供此类服务,5G系统将支持LTE,NR,NR-U和Wi-Fi等访问技术的各种组合。每种无线电访问技术(RAT)都提供不同类型的访问,这些访问应在用户中对其进行最佳分配和管理。除了资源管理外,5G系统还将支持双重连接服务。因此,网络的编排对于系统经理在旧式访问技术方面来说是一个更困难的问题。在本文中,我们提出了一种基于联合元学习(FML)的大鼠分配算法,该算法使RAN Intelligent Controller(RIC)能够更快地适应动态变化的环境。我们设计了一个包含LTE和5G NR服务技术的模拟环境。在模拟中,我们的目标是在传输的截止日期内满足UE需求,以提供更高的QoS值。我们将提出的算法与单个RL试剂,爬行动物算法和基于规则的启发式方法进行了比较。仿真结果表明,提出的FML方法分别在第一部部署回合21%和12%时达到了较高的缓存率。此外,在比较方法中,提出的方法最快地适应了新任务和环境。
translated by 谷歌翻译
鉴于难以获得医学图像识别任务的高质量标签,因此需要对小标签数据集进行充分调整的深度学习技术。自我监督学习技术的最新进展表明,这种内域表示学习方法可以为监督微调提供强大的初始化,这比从监督预读的任务中比标准转移学习更为数据效率。但是,这些应用程序不适用于以视频格式捕获的医学诊断。考虑到这一进展,我们开发了一种自我监督的学习方法,该方法迎合了超声心动图视频,目的是学习强有力的表现,以诊断主动脉瓣狭窄的任务(AS),这是一种主动脉瓣的常见和危险疾病,这是主动脉瓣的常见和危险疾病。当对1%的培训数据进行微调时,我们最好的自我监督学习模型可实现0.818 AUC(95%CI:0.794,0.840),而标准转移学习方法达到0.644 AUC(95%CI:0.610,0.677) 。我们还发现,我们的自我监督模型在预测严重的情况下,与显着图可视化所证明的严重相关。
translated by 谷歌翻译
肺癌是最致命的癌症之一,部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割,须遵守观察者间变异性,并且考虑到专家只能提供注释的事实,也是耗时的。最近展示了有前途的结果,自动和半自动肿瘤分割方法。然而,随着不同的研究人员使用各种数据集和性能指标验证了其算法,可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理(VIP)杯竞赛创建的计算机断层摄影扫描(LOTUS)基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标,因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与,以获得竞争数据。在注册阶段,有129名成员组成了来自10个国家的28个团队,其中9个团队将其达到最后阶段,6队成功完成了所有必要的任务。简而言之,竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明,有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战,以及所提出的算法和结果。
translated by 谷歌翻译
本文介绍了我们在Aaai 2022的多模态事实验证(Factifify)挑战的参与者系统。尽管最近基于文本的验证技术和大型预训练的多模式模型的跨视野和语言,但在申请方面取得了非常有限的工作自动化事实检查过程的多模式技术,特别考虑到社交媒体上的图像和视频的索赔和假新闻的普遍存在。在我们的工作中,挑战被视为多式联版征报任务并被诬陷为多级分类。提出并探索了两个基线方法,包括集合模型(组合两个Uni-Modal模型)和多模态注意力网络(在索赔和证据文件中建模图像和文本对之间的交互)。我们在这项工作中进行了调查和基准测试和基准测试的几个实验和基准测试。我们的最佳型号在排行榜中排名第一,在验证和测试集中获得0.77的加权平均f测量值。对DataSet的探索性分析也在辅助数据集上进行,并揭示了激励我们假设的突出模式和问题(例如,单词重叠,视觉着色相关性,来源偏见)。最后,我们突出了未来研究的任务和多模式数据集的挑战。
translated by 谷歌翻译
脊椎动物视网膜在加工琐碎的视觉任务中是高效的,例如检测移动物体,但是现代计算机的复杂任务。对象运动的检测由名为对象 - 运动敏感神经节细胞(OMS-GC)的专用视网膜神经节细胞完成。 OMS-GC处理连续信号并生成由Visual Cortex后处理的尖峰模式。本工作中提出的神经晶杂交尖峰运动检测器(NeurohSMD)使用现场可编程门阵列(FPGA)加速了HSMD算法。混合尖峰运动检测器(HSMD)算法是增强动态背景减法(DBS)算法的混合算法,其具有定制的3层尖峰神经网络(SNN),该扫描神经网络(SNN)产生OMS-GC Spiking的响应。将NeurokSmd算法与HSMD算法进行比较,使用相同的2012年改变检测(CDNET2012)和2014更改检测(CDNET2014)基准数据集。结果表明,NeurohSMD在实时生产与HSMD算法相同的结果,而不会降低质量。此外,本文提出的NeurokSMD以开放的计算机语言(OpenCL)完全实现,因此在其他设备中容易复制,例如图形处理器单元(GPU)和中央处理器单元(CPU)的集群。
translated by 谷歌翻译
我们给出了第一个多项式 - 时间,多项式 - 样本,差异私人估算器,用于任意高斯分发$ \ mathcal {n}(\ mu,\ sigma)$ in $ \ mathbb {r} ^ d $。所有以前的估算器都是非变性的,具有无限的运行时间,或者要求用户在参数$ \ mu $和$ \ sigma $上指定先验的绑定。我们算法中的主要新技术工具是一个新的差别私有预处理器,它从任意高斯$ \ mathcal {n}(0,\ sigma)$中采用样本,并返回矩阵$ a $,使得$ a \ sigma a ^ t$具有恒定的条件号。
translated by 谷歌翻译
肺癌是全世界癌症死亡的主要原因,具有各种组织学类型,其中肺腺癌(Luac)最近是最普遍的。肺腺癌被归类为预侵入性,微创和侵入性腺癌。及时,准确地了解肺结核的侵袭性导致适当的治疗计划,并降低了不必要或晚期手术的风险。目前,主要成像模型评估和预测Luacs的侵袭性是胸部CT。然而,基于CT图像的结果是主观的并且与手术切除后提供的地面真理审查相比,患有低精度。本文开发了一种基于预测变压器的框架,称为“CAE变压器”,以对Luacs进行分类。 CAE变换器利用卷积自动编码器(CAE)来自动从CT切片中提取信息性功能,然后将其馈送到修改的变压器模型以捕获全局切片关系。我们的内部数据集114个病理证明的副实体结节(SSN)的实验结果证明了CAE变压器在直方图/基于射频的模型上的优越性及其基于深度学习的对应物,实现了87.73%,灵敏度的准确性使用10倍交叉验证,88.67%,特异性为86.33%和0.913的AUC。
translated by 谷歌翻译
这项研究的目的是开发一个强大的基于深度学习的框架,以区分Covid-19,社区获得的肺炎(CAP)和基于使用各种方案和放射剂量在不同成像中心获得的胸部CT扫描的正常病例和正常情况。我们表明,虽然我们的建议模型是在使用特定扫描协议仅从一个成像中心获取的相对较小的数据集上训练的,但该模型在使用不同技术参数的多个扫描仪获得的异质测试集上表现良好。我们还表明,可以通过无监督的方法来更新模型,以应对火车和测试集之间的数据移动,并在从其他中心接收新的外部数据集时增强模型的鲁棒性。我们采用了合奏体系结构来汇总该模型的多个版本的预测。为了初始培训和开发目的,使用了171 Covid-19、60 CAP和76个正常情况的内部数据集,其中包含使用恒定的标准辐射剂量扫描方案从一个成像中心获得的体积CT扫描。为了评估模型,我们回顾了四个不同的测试集,以研究数据特征对模型性能的转移的影响。在测试用例中,有与火车组相似的CT扫描,以及嘈杂的低剂量和超低剂量CT扫描。此外,从患有心血管疾病或手术病史的患者中获得了一些测试CT扫描。这项研究中使用的整个测试数据集包含51 covid-19、28 CAP和51例正常情况。实验结果表明,我们提出的框架在所有测试集上的表现良好,达到96.15%的总准确度(95%CI:[91.25-98.74]),COVID-119,COVID-96.08%(95%CI:[86.54-99.5],95%),[86.54-99.5],),,),敏感性。帽敏感性为92.86%(95%CI:[76.50-99.19])。
translated by 谷歌翻译